GRs调研1 Trillion-Parameter Sequential Transducers for Generative Recommendations
在这项工作中,我们将用户行为视为生成建模中的一种新模式。
我们的关键见解是:
- 在给定适当的新特征空间的情况下,工业规模推荐器中的核心排名和检索任务可以被视为生成建模问题;
- 这种范式使我们能够系统地利用特征、训练和推理中的冗余来提高效率。
- 由于我们的新公式,我们部署的模型在计算上比现有技术复杂三个数量级,同时将顶层指标提高了12.4%,如图1所示
DLRM 传统推荐模型
- 特征交叉模块
- 序列pooling或attention模块
- Moe或者multi-task模块
传统序列推荐视角
- 学术
- RNNs: 开始只使用用户正反馈的序列;
- Transformer:transformer结构;
- 工业
- 序列方法,包括序列编码器和成对注意力模块,由于其作为DLRM的一部分增强用户表示的能力,已被广泛应用于工业环境
- BST 序列长度20;DIN 序列长度1000
- 基本比本文的工作(8192)少1-3个数量级
- 尽管序列长度比较短,但是大多可以捕捉用户长期的偏好。
- 提前计算的用户特征/向量表示,可以扩展回溯窗口
- 使用了大量上下文、用户侧、item侧的特征,和复杂的网络结构
- 同样值得注意的是,在这项工作之前,还没有传统的完全基于序列建模的设置在行业应用成功,尤其是在十亿日活跃用户(DAU)规模下。
- 序列方法,包括序列编码器和成对注意力模块,由于其作为DLRM的一部分增强用户表示的能力,已被广泛应用于工业环境
传统序列推荐(学术)的三个限制和生成推荐如何解决?
-
特征忽视:传统的序列推荐模型通常只考虑用户显式交互过的内容(如点击或观看的项目),而忽略了其他类型的特征,例如用户的人口统计信息、兴趣偏好、上下文信息等。这些特征在工业规模的推荐系统中对于增强用户和内容的表示非常重要。
-
目标独立性:许多传统的序列推荐模型在计算用户表示时采用目标独立的方式。也就是说,它们使用用户与项目的历史交互作为编码器的输入来预测下一个项目,而没有将目标项目(即排名候选项目)的信息整合到用户表示的计算中。这限制了模型捕捉用户对特定候选项目的偏好的能力。
-
判别性公式:传统的序列推荐模型通常是判别性的,它们建模的是给定用户当前状态的下一个推荐项的条件分布。这种设计限制了模型在生成推荐序列时的适用性,因为它们没有直接建模整个推荐序列的联合概率分布,这在生成任务中是有用的。
为了克服这些限制,论文提出了生成性推荐器(Generative Recommenders,简称GRs),它们通过以下方式改进了推荐系统:
- 通过将用户交互历史与其他特征合并,以利用更丰富的用户信息。
- 采用目标感知的自注意力机制,将候选项目信息整合到用户表示的计算中。
- 采用生成性建模方法,直接建模整个推荐序列的联合概率分布,从而能够生成连续的推荐项目序列。